近年来,薄弱的监督已应用于各种自然语言理解任务。由于技术挑战范围缩小了较弱的长期文档的监督,跨越了数百页,因此在文档理解空间中的应用程序受到限制。在Lexion,我们建立了一个针对长格式(长10-200页)PDF文档量身定制的基于监督的薄弱系统。我们使用此平台来构建数十种语言理解模型,并成功地应用于从商业协议到公司编队文件的各个领域。在本文中,我们在有限的时间,劳动力和培训数据的情况下,通过弱监督进行监督学习的有效性。我们在一周的时间内建立了8个高质量的机器学习模型,借助一小组组成的小组,只有3个注释者与300个文档的数据集一起工作。我们分享有关我们的整体体系结构,如何利用弱监督以及能够实现的结果的一些细节。我们还包括想要尝试替代方法或完善我们的研究人员的数据集。此外,我们阐明了使用PDF格式扫描不良的长格式文档时出现的其他复杂性,以及一些有助于我们在此类数据上实现最新性能的技术。
translated by 谷歌翻译